4 字符串清洗技术
4.1 正则表达式导入与创建
字符串的处理,在数据清洗中占比很大,也就是说有很多不规则数据的处理,都是对字符串处理。Excel提供了拆分、提取、查找、替换等对字符串处理的技术。在Pandas中同样提供了这些功能,并且在pandas中还有正则表达式技术的加持,让其字符处理能力更加强大。
要在python中使用正则表达式,首先要引入re这个库,它是python的内置库。
1、 在导入re库之后,直接使用re.函数()来使用正则表达式,比如使用re.findall()函数
2、 如果要重复使用一个正则表达式对象,则可以将正则表达式预编译成正则表达式对象,这样效率更高,在导入re库之后,将正则表达式写入re.compile()函数,然后生成正则表达式对象,再调这个对象的函数处理,如re.compile(r”\d”).findall(“9527”)
compile:汇编,编译
import re
t=re.findall( "\d" , "dtt9527dfhdd" )
p=re.compile( "\d" ) #编译一次可以多次使用
t1=p.findall( "dtt9527dfhdd" )
t2=p.findall( "dtt9527-2dfhdd" )
print (t)
print (t1)
print (t2)
返回:
[ '9', '5', '2', '7' ]
[ '9', '5', '2', '7' ]
[ '9', '5', '2', '7', '2' ]